
Page 59 sur 69
(catégorie supprimée lors de l’OneHotEncoding). Sans cette comparaison, l’interprétation
perd son sens.
Le plus simple est donc de comparer les variables numériques entre elles et de comparer les
catégories de chaque variable catégorielle entre elles.
Toutefois, il est possible d’envisager une comparaison plus générale en calculant l’odds-ratio
pour chaque feature du modèle de Machine Learning. Les odds-ratios sont le résultat de
l’exponentiation des coefficients de la régression logistique. Ces odds-ratios sont plus faciles
à interpréter que les coefficients bruts.
b) Les odds-ratio des features et p-value
En examinant les odds-ratios, nous pouvons comprendre l'importance des features puisqu’ils
permettent de quantifier l'impact d'une variable, qu'elle soit numérique ou catégorielle, sur
la probabilité de l'événement cible.
Puisque la standardisation des variables numériques a été effectuée, nous pouvons
comparer l’influence des variables catégorielles et numériques pour prédire l’attrition chez
IBM. Nous n’interpréterons que les odds-ratios dont les variables ont une p-value inférieure
à 0,05, c’est-à-dire qui sont statistiquement significatives dans notre modèle de Machine
Learning.
c) Résultats
feature_names Odds_Ratio p_values
cat__BusinessTravel_Travel_Frequently 22,047405
0,000
cat__BusinessTravel_Travel_Rarely 7,034252
0,000
cat__Department_Research & Development 2,328993
0,773
cat__Department_Sales 2,204404
0,796
cat__EducationField_Life Sciences 0,16976
0,018
cat__EducationField_Marketing 0,320699
0,118
cat__EducationField_Medical 0,231288
0,046
cat__EducationField_Other 0,199451
0,040
cat__EducationField_Technical Degree 0,492606
0,278
cat__EnvironmentSatisfaction_2_Moyen 0,234346
0,000
cat__EnvironmentSatisfaction_3_Elevée 0,192807
0,000
cat__EnvironmentSatisfaction_4_Très élevée 0,092927
0,000
cat__JobInvolvement_2_Moyen 0,232393
0,000
cat__JobInvolvement_3_Elevée 0,184345
0,000
Page 60 sur 69
feature_names Odds_Ratio p_values
cat__JobInvolvement_4_Très élevée 0,045145
0,000
cat__JobRole_HumanResources_Job 1,654023
0,832
cat__JobRole_Laboratory Technician 3,850782
0,008
cat__JobRole_Manager 0,304373
0,195
cat__JobRole_Manufacturing Director 0,915035
0,848
cat__JobRole_Research Director 0,064088
0,008
cat__JobRole_Research Scientist 1,557245
0,361
cat__JobRole_Sales Executive 7,811752
0,087
cat__JobRole_Sales Representative 6,103887
0,142
cat__JobSatisfaction_2_Moyen 0,308261
0,000
cat__JobSatisfaction_3_Elevée 0,390061
0,000
cat__JobSatisfaction_4_Très élevée 0,179257
0,000
cat__OverTime_OverTime-Yes 13,114347
0,000
cat__WorkLifeBalance_2_Bon 0,258477
0,000
cat__WorkLifeBalance_3_Très bon 0,16617
0,000
cat__WorkLifeBalance_5_Parfait 0,583458
0,170
num__Age 1,023764
0,808
num__DistanceFromHome 1,54325
0,000
num__MonthlyIncome 0,479845
0,039
num__StockOptionLevel 0,466779
0,000
num__TotalWorkingYears 0,446459
0,000
num__TrainingTimesLastYear 0,714013
0,000
num__YearsAtCompany 1,161962
0,505
num__YearsInCurrentRole 0,731635
0,066
num__YearsWithCurrManager 0,898903
0,513
d) Interprétation
* Certaines variables ne sont pas statistiquement significatives (p-value > 0,05), cela suggère
qu’il n'y a pas suffisamment de preuves pour affirmer qu’elles sont liées à l’attrition. C’est le
cas pour les variables numériques ‘Department’, ‘Age’, ‘YearsAtCompany’,
‘YearsInCurrentRole’ et ‘YearsWithCurrManager’.
* Les variables ‘TrainingTimesLastYear’, ‘MonthlyIncome’, ‘StockOptionLevel’ et
‘TotalWorkingYears’ diminuent l’attrition à mesure que leur valeur augmente. En effet, elles
ont des odds-ratios inférieurs à 1 signifiant que lorsque la valeur de la variable augmente, la
probabilité que l’employé quitte l’entreprise diminue. Elles sont, ici, classées dans l’ordre
inverse de l’importance de leur impact sur l’attrition, autrement dit, la variable
‘TrainingTimesLastYear’ a plus d’impact sur l’attrition que ‘TotalWorkingYears’.
* Les odds-ratios des variables :